基于变压器的方法与基于CNN的方法相比,由于其对远程依赖性的模型,因此获得了令人印象深刻的图像恢复性能。但是,像Swinir这样的进步采用了基于窗口的和本地注意力的策略来平衡性能和计算开销,这限制了采用大型接收领域来捕获全球信息并在早期层中建立长期依赖性。为了进一步提高捕获全球信息的效率,在这项工作中,我们建议Swinfir通过更换具有整个图像范围的接收场的快速傅立叶卷积(FFC)组件来扩展Swinir。我们还重新访问其他先进技术,即数据增强,预训练和功能集合,以改善图像重建的效果。并且我们的功能合奏方法使模型的性能得以大大增强,而无需增加训练和测试时间。与现有方法相比,我们将算法应用于多个流行的大规模基准,并实现了最先进的性能。例如,我们的Swinfir在漫画109数据集上达到了32.83 dB的PSNR,该PSNR比最先进的Swinir方法高0.8 dB。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
知识图(kg)及其本体论的变体已被广泛用于知识表示,并且已证明在增强零拍学习(ZSL)方面非常有效。但是,利用KGS的现有ZSL方法都忽略了KGS中代表的类间关系的内在复杂性。一个典型的功能是,一类通常与不同语义方面的其他类别有关。在本文中,我们专注于增强ZSL的本体,并建议学习以本体论属性为指导的解剖本体嵌入,以捕获和利用不同方面的更细粒度的类关系。我们还贡献了一个名为dozsl的新ZSL框架,该框架包含两个新的ZSL解决方案,分别基于生成模型和图形传播模型有效地利用了分解的本体学嵌入。已经对零摄像图分类(ZS-IMGC)和零射Hot KG完成(ZS-KGC)进行了五个基准测试进行了广泛的评估。 Dozsl通常比最先进的表现更好,并且通过消融研究和案例研究证实了其组成部分。我们的代码和数据集可在https://github.com/zjukg/dozsl上找到。
translated by 谷歌翻译
我们利用离线增强学习(RL)模型在现实世界中有预算限制的情况下进行连续的目标促销。在我们的应用程序中,移动应用程序旨在通过向客户发送现金奖金并在每个时间段内控制此类现金奖金的成本来促进客户保留。为了实现多任务目标,我们提出了预算限制的加强学习,以进行顺序促销(BCRLSP)框架,以确定要发送给用户的现金奖金的价值。我们首先找出目标策略和相关的Q值,这些Q值是使用RL模型最大化用户保留率的。然后添加线性编程(LP)模型以满足促销成本的限制。我们通过最大化从RL模型中汲取的动作的Q值来解决LP问题。在部署期间,我们将离线RL模型与LP模型相结合,以在预算约束下生成强大的策略。使用在线和离线实验,我们通过证明BCRLSP达到的长期客户保留率和比各种基线更低的成本来证明我们方法的功效。利用近乎实时的成本控制方法,提出的框架可以轻松地使用嘈杂的行为政策和/或满足灵活的预算约束。
translated by 谷歌翻译
在这项工作中,我们在分配强化学习方面建立了最新的进步,以基于IQN提供模型的最新分配变体。我们通过使用GAN模型的生成器和鉴别器功能与分位数回归来实现这一目标,从而近似于状态返回分布的完整分位数。我们证明了基线数据集的性能提高-57 Atari 2600游戏。此外,我们使用算法来显示Atari游戏中风险敏感政策的最新培训表现,并通过政策优化和评估。
translated by 谷歌翻译
基于传感器的环境感知是自主驾驶系统的关键步骤,多个传感器之间的准确校准起着至关重要的作用。为了校准激光雷达和相机,现有方法通常是先校准相机的固有,然后校准激光雷达和相机的外部。如果在第一阶段无法正确校准摄像机的固有效果,则可以准确地校准激光镜相机外部校准并不容易。由于相机的复杂内部结构以及缺乏对摄像机内在校准的有效定量评估方法,因此在实际校准中,由于摄像机内在参数的微小误差,外部参数校准的准确性通常会降低。为此,我们提出了一种新型的基于目标的关节校准方法,用于摄像机内在和激光摄像机外部参数。首先,我们设计了一个新颖的校准板图案,在棋盘上增加了四个圆形孔,以定位激光姿势。随后,在棋盘板的再投影约束和圆形孔特征下定义的成本函数旨在求解相机的内在参数,失真因子和激光相机外部外部参数。最后,定量和定性实验是在实际和模拟环境中进行的,结果表明该方法可以达到准确性和鲁棒性能。开源代码可在https://github.com/opencalib/jointcalib上获得。
translated by 谷歌翻译
旨在从非结构化文本中提取结构信息的知识提取(KE)通常会遭受数据稀缺性和新出现的看不见类型,即低资源场景。许多低资源KE的神经方法已广泛研究并取得了令人印象深刻的表现。在本文中,我们在低资源场景中介绍了对KE的文献综述,并将现有作品分为三个范式:(1)利用更高的资源数据,(2)利用更强的模型,(3)利用数据和模型一起。此外,我们描述了有前途的应用,并概述了未来研究的一些潜在方向。我们希望我们的调查能够帮助学术和工业界更好地理解这一领域,激发更多的想法并提高更广泛的应用。
translated by 谷歌翻译
不同的应用方案将导致IMU表现出不同的误差特征,这将导致机器人应用程序。但是,大多数数据处理方法需要设计用于特定方案。为了解决这个问题,我们提出了一些拍摄的域适应方法。在这项工作中,考虑了一个域适应框架用于去噪IMU,旨在改善域适应性的重建损失。此外,为了进一步提高数据的情况下的适应性,采用了几次拍摄的培训策略。在实验中,我们在两个数据集(EUROC和TUM-VI)上量化了我们的方法,以及具有三种不同精密IMU的两个真正的机器人(汽车和四叉机器人)。根据实验结果,通过T-SNE验证了我们框架的适应性。在方向结果中,我们的提出方法显示出巨大的去噪能力。
translated by 谷歌翻译
知识图(KGS)代表作为三元组的事实已被广泛采用在许多应用中。 LIGHT预测和规则感应等推理任务对于KG的开发很重要。已经提出了知识图形嵌入式(KGES)将kg的实体和kg与持续向量空间的关系进行了建议,以获得这些推理任务,并被证明是有效和强大的。但在实际应用中申请和部署KGE的合理性和可行性尚未探索。在本文中,我们讨论并报告我们在真实域应用程序中部署KGE的经验:电子商务。我们首先为电子商务KG系统提供三个重要的探索者:1)注意推理,推理几个目标关系更为关注而不是全部; 2)解释,提供预测的解释,帮助用户和业务运营商理解为什么预测; 3)可转让规则,生成可重用的规则,以加速将千克部署到新系统。虽然非现有KGE可以满足所有这些DesiderATA,但我们提出了一种新颖的一种,可说明的知识图表注意网络,通过建模三元组之间的相关性而不是纯粹依赖于其头实体,关系和尾部实体嵌入来预测。它可以自动选择预测的注意力三倍,并同时记录它们的贡献,从该解释可以很容易地提供,可以有效地生产可转移规则。我们经验表明,我们的方法能够在我们的电子商务应用程序中满足所有三个DesiderATA,并从实际域应用程序中倾斜于数据集的典型基线。
translated by 谷歌翻译
This paper focuses on designing efficient models with low parameters and FLOPs for dense predictions. Even though CNN-based lightweight methods have achieved stunning results after years of research, trading-off model accuracy and constrained resources still need further improvements. This work rethinks the essential unity of efficient Inverted Residual Block in MobileNetv2 and effective Transformer in ViT, inductively abstracting a general concept of Meta-Mobile Block, and we argue that the specific instantiation is very important to model performance though sharing the same framework. Motivated by this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile applications, which absorbs CNN-like efficiency to model short-distance dependency and Transformer-like dynamic modeling capability to learn long-distance interactions. Furthermore, we design a ResNet-like 4-phase \textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass \textbf{SoTA} CNN-/Transformer-based models, while trading-off the model accuracy and efficiency well.
translated by 谷歌翻译